為什麼需要在意?
餵什麼,長什麼。語料品質與切詞方式會直接影響輸出。
白話定義
語料:網頁、論壇、書籍、文件……品質參差,偏誤必然存在
Token:不是字,是「片段」。切得太碎→成本高、理解難;切得太粗→細節丟失
常見情境
通用模型懂皮毛;遇到專業長尾就容易亂講
中文語境差異大:口語、學術、法務是三個世界
常見誤解
「網路上很多=真實」→ 流量不等於正確
「丟越多上下文越好」→ 噪音會稀釋重點
如何判斷(觀念)
先問:任務需要「廣度」還是「深度」?
專業場景就補專業資料(哪怕只是概念上規畫來源、分級、稽核)
小結
資料是地基、Token 是積木,兩者的選擇決定了「房子」能蓋多穩。